正态分布 您所在的位置:网站首页 正态分布 表格 正态分布

正态分布

2024-05-18 23:24| 来源: 网络整理| 查看: 265

正态分布

数据可以用不同的方式"分布" (散布)。

数据可以向左散布的多一些   或向右散布的多一些         或乱七八糟的

但数据经常会集中在一个中心值的附近,而不向左或右偏斜,像一个 "正态分布":

正态分布

"钟形曲线"是个正态分布。 黄色的直方图显示有些数据遵循, 但并不完美地遵循,正态分布(通常是这样的)。

通常这就叫做 "钟形曲线" 因为曲线的形状像个钟。

实际生活中很多东西都遵循正态分布:

人的身高 机器产品的大小 测量误差 血压 测验分数

我们说数据是 "正态分布"的:

正态分布

平均值 = 中位数 = 众数 沿中线对称 50% 的值小于平均值, 50% 的值大于平均值 梅花机

你可以来看看随机形成的正态分布!

这叫梅花机――一个很奇妙的机器。

来玩玩!

  标准差

标准差是数据散布的指标(去网页看看它是怎样计算的)。

当你计算标准差时,你通常会留意到:

 

68%的数值是在 离平均值1个标准差之内

 

 

95%的数值是在 离平均值

2个标准差之内

 

99.7%的数值是在离平均值3个标准差之内

 

例子:学校里 95%的学生的身高是在 1.1m 与 1.7m之间。

假设数据是正态分布的,求平均值和标准差。

平均是在 1.1m 和 1.7m 的正中间:

平均 = (1.1m + 1.7m) / 2 = 1.4m

95% 是平均两边 2个标准差的距离(总共 4个标准差),所以:

1个标准差 = (1.7m − 1.1m) / 4   = 0.6m / 4   = 0.15m

结果是:

知道标准差是很有用的,因为我们可以说任何一个数值离平均值值:

很可能在 1个标准差之内(100个里应该有 68个是这样) 极有可能在 2个标准差之内(100个里应该有 95个是这样) 差不多必然在 3个标准差之内(100个里应该有 99.7个是这样) 标准差比值

数值离开平均值的距离与标准差的比(就是离开平均值有几个标准差)也叫 "标准分数",英语 "sigma" 或 "Z分数"。记住这些名词!

例子:在学校里有一个学生的身高是 1.85m

从图上的钟形线你可以看到 1.85m是离平均值(1.4) 3个标准差,所以:

他身高的 "Z分数" 是 3.0

 

我们也可以计算 1.85 离平均值有多少个标准差

1.85 离平均值有多远?

离平均值 1.85 - 1.4 = 0.45m

这是几个标准差?标准差是 0.15m,所以:

0.45m / 0.15m = 3个标准差

所以要将数值转换为标准分数("Z分数")::

先减去平均值, 再除以标准差

这个运算叫 "标准化":

我们可以将任何正太分布转换为标准正态分布。

例子:行程时间

每天行程时间调查的结果是(分钟):

26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34

平均是 38.8分钟标准差是 11.4分钟(你可以 复制并粘贴到标准差计算器来看看)。

转换为 Z分数("标准分数")。

 

转换 26

先减去平均:26 - 38.8 = -12.8, 然后除以标准差:-12.8/11.4 = -1.12

所以 26 离平均值 -1.12个标准差

 

以下是头三个的转换结果

原数值 计算 标准分数 (Z分数) 26 (26-38.8) / 11.4 = -1.12 33 (33-38.8) / 11.4 = -0.51 65 (65-38.8) / 11.4 = +2.30 ... ... ...

 

在图上:

你可以自己去算其他的 Z分数!

 

这是我们用的 Z分数公式:

  z 是 "Z分数"(标准分数) x 是要标准化的数值 μ 是平均 σ 是标准差 为什么要标准化……?

因为标准化后我们可以为数据做决定。

例子:韦教授在改卷。

这是学生的分数(满分是 60分):

20、15、26、32、18、28、35、14、26、22、17

大部分的学生连 30分也拿不到,大部分都不及格

一定是个很难的测验,所以韦教授决定标准化所有分数,然后把合格分数定在平均以下一个标准差。

平均是 23标准差是 6.6,以下是标准分数:

-0.45、-1.21、0.45、1.36、-0.76、0.76、1.82、-1.36、0.45、-0.15、-0.91

只有两个学生不合格(分数是 15 和 14)

标准化后的计算也比较简单,因为只需要查看一个表(标准正态分布表)而不需要每次为不同的平均值和标准差做计算。

具体来讲

以下是标准正态分布里每一半的百分比和累积百分比:

例子:你最近测验的分数是在平均值以上 0.5个标准差,有几个人的得分比你

0 与 0.5 之间是 19.1% 小于 0 是 50%(曲线的左半)

所以分数比你低i的百分比是:

50% + 19.1% = 69.1%

理论上 69.1% 的分数比你低(实际上百分比可能不同)

实例:你的公司包装每袋 1kg 的砂糖。

样本称量的结果是:

1007g、1032g、1002g、983g、1004g……(总共 100个样品) 平均值 = 1010g 标准差 = 20g

有些袋子比 1000g 轻……你可以解决问题吗?

测量的正态分布像这样:

31% 的袋子比 1000g 轻, 这是欺骗顾客!

这是随机发生的,所以我们不能绝对没有比 1000g 轻的袋子,但我们可以尝试把轻的个数尽量减少

我们把包装机器调校到 1000g 为:

−3个标准差: 从上面的钟形曲线我们看到 0.1% 的袋子会比 1000g 轻。但这可能太少了 −2.5个标准差: 3个标准差以下是 0.1%,在 3 和 2.5个标准差之间是 0.5%,加起来是 0.1% + 0.5% = 0.6%=(我觉得这是个不错的选择)

我们去把机器调校到 1000g 离平均值 −2.5个标准差

我们可以把机器调校到:

每袋多加一些砂糖(改变平均值),或 更加精确(减小标准差)

我们两个都做

调整每袋的砂糖

标准差是 20g,我们需要 2.5个:

2.5 × 20g = 50g

所以机器的平均值应该是 1050g,像这样:

 

调校机器的精确度

我们也可以保持平均不变(1010g),但需要 2.5个标准差等于 10g:

10g / 2.5 = 4g

所以标准差应该是 4g

(希望机器可以这么精确!)

我们也可以两个都用:用好一点精确度和大一点重量的结合。你自己决定!

更精确的数值……

你可以用 标准正态分布表 来得到更精确的数值。

 

  标准差 标准差计算器 梅花机 概率与统计学索引


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有